2007. 3. <서울시스템(주) 한국학데이터베이스연구소 연구 개발 사업>


東洋古典資料 電算 處理를 위한 漢字 入力法(뿌리법)


김  현


  방대한 규모의 東洋古典資料를 電算化하기 위해서는 무엇보다도 資料의 資料의 신속 정확한 入力 방법의 開發이 필요하다.  특히 전문가가 아니면 해득하기 어려운 漢文 데이터의 경우, 資料의 入力을 얼마나 효율적으로 할 수 있느냐 하는 문제가 電算化 事業의 성패를 가름한다고 보아도 과언이 아니다. 서울시스템은 漢文 原典 데이터베이스 및 韓國의 族譜 데이터베이스, 漢文辭典 데이터베이스 등을 제작하는 過程에서 漢字 데이터의 入力을 최대한 신속하고 정확하게 할 수 있는 새로운 소프트웨어를 開發하여 놀라운 능률 향상을 기하였다. ‘뿌리법’은 부산대학교 중문과의 강식진 교수가 硏究 책임을 맡고 서울시스템의 DTP 開發실에서 開發 업무를 담당하여 3년간의 文字 조성 분석 및 프로그램 구현 過程을 거쳐 開發되었다. 5천3백만자에 달하는 <漢文原典 朝鮮王朝實錄>의 전 데이터가 성공적으로 디지타이징될 수 있었던 것은 전적으로 ‘뿌리법’의 開發에 의한 것이었다고 할 수 있다.


  1. 뿌리 入力法의 특징


  지금까지 韓國이나 日本에서 써 온 漢字 入力法은 해당 漢字의 讀音을 入力한 후에 그것을 漢字로 變換시키는 방법이었다. 그러나 이러한 二重 入力 방법은 속도가 느릴 뿐 아니라, 해당 漢字의 선택 過程에서 많은 오류가 발생하여 부정확하며, 漢字의 讀音을 모를 경우 아예 入力이 불가능하다는 단점이 있었다.

  뿌리법은 漢字를 형태적으로 분석하여 개개의 글자를 이루는 조성 요소(뿌리)를 코드화함으로써 이 코드를 入力하면 즉석에서 漢字로 變換될 수 있도록 한 것이다. 따라서 이 뿌리법을 쓰기 위해서는 漢字의 造成要所와 筆順에 대한 이해가 있어야 하기 때문에 漢字에 익숙하지 않은 사람은 이 점에 어려움이 있을 수도 있다. 하지만 漢字의 조성은 글자를 볼 때 바로 눈으로 확인되는 것이기 때문에 익히기 쉽고, 필수 역시 글자를 쓰는 일반적인 원칙을 따라는 것이기 때문에 누구나 이 방법에 쉽게 익숙해질 수가 있다.

  뿌리법의 가장 큰 장점은 入力의 迅速性이다. 이 방법을 사용하여 漢字를 入力할 경우 글자 자종의 난이도에 관계없이 1 분에 100자, 1 시간에 5,000자 이상의 入力이 가능하다. 또 다른 장점은 入力의 正確性이다. 뿌리 코드는 중복을 최소화하여 배정되었기 때문에 네 번 이내의 키 入力에 의해 정확한 漢字를 호출할 수 있다. 그러한 이유에서 경우에 따라서는 수십 개의 漢字가 한꺼번에 호출되기도 하는 音變換法보다 휠씬 정확한 漢字 入力이 이루어질 수 있는 것이다.


  2. 뿌리 入力法의 개념

     

  漢字를 구성하고 있는 각 부분의 모양을 분석하면 약 248종의 요소로 나눌 수 있다. 이것을 字根이라고 하는데, ‘뿌리’라고 하는 것은 바로 이 字根를 가리키는 것이다. 이 248개의 뿌리를 비슷한 모양 또는 의미에 있어 유사성이 있는 것끼리 묶되, 모아 쓸 경우 중복률을 최소화할 수 있도록 하여 40종의 뿌리 집합을 구성하였다. 이 40종의 뿌리 집합을 코드화하여 컴퓨터 자판의 40개 키에 배당한 것이 바로 뿌리 코드이다. 서울시스템에서는 현재 東洋 古典 데이터베이스 구축을 위한 學術用 漢字 17,367 字에 이 뿌리 코드를 부여하여 DTP 및 데이터베이스 開發 업무에 적용하고 있으며, 유니 코드 漢字(20,902 자)에 대한 뿌리 코드 배정 작업도 완료하여 WINDOWS 용 유니 코드 漢字 編輯機와 WINDOWS NT용 유니 코드 文字入力環境(IME)에서 뿌리 入力法을 사용할 수 있도록 하였다.

  뿌리 코드는 중복을 최소화하여 부여되었기 때문에 전체 漢字 중 5% 이내의 글자에서만 코드 중복이 발생한다. 즉, 대부분의 漢字가 번호 키를 가지고 글자를 고르지 않아도 정확하게 入力될 수 있다는 것이다.  아래의 표는 40개의 집합으로 묶은 漢字 뿌리 248종의 목록이다.



♧ 도표



  3. 뿌리 코드의 구성


  각각의 漢字를 이루는 뿌리의 수는 적게는 한 개에서부터 많게는 열 개 이상에 이르기도 한다. 하지만 뿌리 入力法을 쓸 때 漢字 한 자를 入力하기 위해 그 글자를 이루는 모든 뿌리들을 다 入力할 필요는 없다. 아무리 복잡하게 쓰인 漢字라 하더라도 그 속에서 4개의 뿌리만 뽑아내면 다른 漢字와 구별되는 고유한 코드를 만들 수 있기 때문에 뿌리 코드는 모두 4 자 이내로 이루어져 있다. 뿌리 코드는 각각의 漢字를 구성하는 뿌리 중 첫번째, 두번째, 세번째, 그리고 가장 마지막 뿌리로 구성되어 있다.



♧ 도표



  4. 뿌리 入力 자판


   40종의 뿌리 코드는 컴퓨터 자판의 40개 키에 아래와 같이 배당되어 있다. 각각의 키에 쓰인 漢字는 40개 뿌리 집합의 대표 뿌리이다.



♧ 도표